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摘要 : [目的 /意义 ] 信息 过 载 一 直 是 知识 工作 者 在 搜集 、 处 理 和 创造 知识 的 过 程 中 所 面临 的 主要 困境 。 这 
种 困境 导致 的 结果 之 一 是 很 难 回忆 起 曾经 使 用 过 的 文档 的 内 容 细 节 及 具体 位 置 ,而 推荐 系统 则 能 减少 这 样 的 
困难 。 通 过 研究 对 比 不 同 推荐 系统 在 这 一 任务 下 的 优 缺 点 ,可 以 帮助 知识 工作 者 更 好 地 完成 回忆 任务 。[ 方 
法 /过 程 ] 基 于 相关 理论 ,在 同一 场景 (知识 找 回 ) 模 拟 实现 并 测试 了 4 种 不 同类 型 的 推荐 过 程 ,包括 基于 内 容 的 
推荐 CBR、 基 于 协同 过 滤 的 推荐 CER、 基 于 推理 网 络 的 推荐 INR 与 融入 了 情境 感知 的 推荐 CAS ,根据 所 确定 的 
若干 指标 (精确 性 、 情 境 相 关 性 、 预 测 性 、 多 样 性 ) 对 推荐 效果 进行 比较 。[ 结果 /结论 ] 结果 显示 ,以 上 推荐 系统 
在 帮助 用 户 回 忆 并 找 回 文 档 过 程 中 都 有 各 自 的 优势 ,而 基于 情境 感知 的 推荐 系统 在 情境 相关 性 与 预测 用 户 行 


为 方面 具有 较 好 的 效果 。 
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情境 感知 


随 着 互联 网 规模 的 急剧 扩大 与 信息 数量 的 几何 增 
长 信息 服务 领域 一 直面 临 着 “信息 过 载 " 的 困境 。 这 
种 困境 的 主要 表现 形式 为 :个 人 或 系统 所 接受 的 信息 
超 款 了 其 接受 能 力 而 导致 系统 故障 " 。 根 据 检索 理论 
而 弘 展 出 的 一 般 信息 检索 系统 ,能 从 海量 数据 中 “ 拉 
JU fL. ,但 无 法 根据 用 户 当 前 或 历史 行为 按 气 有 效 信 
息 S 更 无 法 感知 用 户 当前 情境 来 进行 合理 推荐 。 而 建 
立 在 对 用 户 需求 预测 基础 上 的 信息 推荐 方案 ,能 更 好 
实现 “ 按 需 定制 服务 ” ,也 能 一 定 程度 上 解决 信息 过 载 
问题 ”。 目 前 ,由 以 下 几 类 模型 (算法 集 ) 组 合 的 推荐 
系统 发 展 较为 完备 :第 一 类 ,过 滤 类 。 即 基于 内 容 或 基 
于 协同 过 滤 模 型 ,它们 主要 针对 “用 户 本 身 对 资源 项 目 
的 偏好 ”或 “用 户 -项 目 (item)” 的 二 元 关系 进行 推 
荐 ,该 类 模型 所 开发 的 推荐 系统 在 商业 领域 (如 B2C 
网 站 、 广 告 . 新 闻 、 娱 乐 ) 均 有 成 熟 应 用 , 且 效 果 明 
$77. 第 二 类 ,标注 类 。 即 基于 语义 (社会 化 ) 标 签 
或 本 体 的 模型 。 它 们 对 “用 户 - 资源 ”两 端 内 容 做 语 


义 优化 和 标签 描述 。 在 此 基础 上 对 用 户 属 性 进行 建 
模 ! ,或 对 用 户 和 资源 进行 标签 描述 和 分 / 聚 类 "] ,并 
且 使 得 机 器 能 识别 用 户 偏 好 和 资源 所 列 含 的 语义 信 
息 ,在 更 广泛 的 范围 内 解决 信息 推荐 过 程 中 的 “个 性 
化 “兴趣 偏好 发 现 ”“ 资 源 异 构 ” 与 “语义 偏差 ”等 问 
题 ,从 而 提高 推荐 的 精度 "”。 第 三 类 ,推理 类 。 此 类 
模型 基于 某 种 推理 规则 (inference rules ) 或 机 器 学 习 相 
关 方 法 进行 推理 决策 ,在 资源 网 络 中 找 出 满意 结 
OSN 。 第 四 类 ,感知 类 ,是 在 原 有 模型 中 融 人 了 情 
境 信 息 '” ,以 提高 泛 在 场景 下 信息 推荐 服务 的 效果 ， 
此 类 推荐 系统 在 实际 应 用 中 , 尚 处 于 发 展 阶段 ,成 熟 的 
推荐 应 用 较 少 ，”" 。 需 要 说 明 的 是 ,以 上 这 四 类 推荐 
系统 模型 并 不 具有 独立 性 ,为 了 使 得 推荐 效果 更 佳 , 往 
往 将 这 些 模型 中 的 两 种 或 多 种 进行 搭配 和 组 合 , 形 成 
混合 推荐 系统 。 

在 解决 信息 过 载 问题 时 ,许多 学 者 将 研究 场景 设 
定 为 网 络 信息 资源 的 接受 与 利用 ,而 少 有 研究 面向 日 
常 工作 中 的 知识 找 回 (knowledge re -finding) ”场景 。 
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日 常 工作 中 ,知识 工作 者 (knowledge workers) 29 的 任 
务 通常 包括 文档 撰写 .程序 编写 .数据 分 析 文本 阅读 
等 ,并 会 在 以 上 任务 间 频 繁 切换 ,这 种 切换 会 使 得 他 们 
经 常 查阅 自己 过 去 曾经 浏览 过 的 文档 。 当 这 种 情况 发 
生 时 ,有 可 能 出 现 “即使 知道 存储 在 某 一 角落 ,但 依然 
容易 忘记 其 路 径 而 无 法 找到 它们 ”的 问题 。 本 文 将 以 
上 场景 称 为 “知识 找 回 " 或 “知识 辅助 记忆 ”, 而 将 以 上 
问题 称 为 “知识 找 回 困难 ”。 

因此 ,为 知识 工作 者 选择 合适 的 推荐 系统 来 帮助 
其 回忆 这 些 文档 ,能 够 提高 其 工作 效率 ,提升 工作 质 
量 。 许 多 学 者 在 协同 推荐 的 基础 上 ,从 各 个 角度 对 找 
回 记忆 性 知识 问题 进行 了 研究 。 例 如 , 利用 本 体 理 
ib "7 ,决策 系统 理论 上 .可靠 性 及 信任 度 理论 ”1 等 。 
送 些 研究 大 多 仅 考虑 了 用 户 的 静态 兴趣 (statie inter- 
est, 虽然 静态 兴趣 的 多 维 描述 会 使 推荐 结果 更 为 丰 
富 \ 但 在 知识 找 回 场景 下 ,就 会 导致 另 一 个 逻辑 性 问 
题 即 ,推荐 的 目的 是 为 了 减少 信息 过 载 ,而 不 是 增加 
27. 换 句 话说 ,知识 找 回 场景 下 推荐 系统 的 任务 是 提 
醒 转 户 * 将 要 "使 用 什么 ,而 不 是 用 户 “ 喜 欢 过 "什么 。 
送 第 ,如 何 合理 预测 用 户 可 能 出 现 的 这 些 需 求 ,对 这 类 
推 衫 系统 提出 了 更 高 要 求 。 结 合 一 般 推 荐 ,笔者 认为 ， 
知 吏 找 回 场景 下 推荐 的 任务 需求 可 以 概括 为 以 下 4 个 


[e | 


特征 ， 


CO) 精确 推荐 。 即 精确 推荐 结果 集 ,以 减少 非 相 
关 推 荐 结果 对 工作 的 干扰 。 
己 (2) 情境 相关 。 提 醒 用 户 哪些 文档 是 其 过 去 浏览 
过 竺 与 现在 进行 的 知识 工作 情境 相关 的 。 
(3 ) 行为 预测 。 能 够 感知 下 一 步 可 能 用 到 的 文 
档 ,以 减少 人 机 交互 复杂 度 , 节 省 用 户 导航 时 间 。 

(4) 多样 性 。 提 供 多 样 化 推荐 结果 ,以 激发 用 户 
的 知识 创造 力 。 
笔者 根据 上 述 4 个 需求 的 特点 设立 相关 指标 ,并 
将 前 文 所 述 的 4 种 推荐 类 型 放 到 知识 找 回 这 一 研究 场 
景 ,通过 记录 用 户 历史 行为 ,描述 用 户 过 去 工作 情境 和 
当前 工作 情境 ,建立 基于 情境 感知 的 推荐 模型 ?2 。 预 
测 其 有 可 能 忘记 或 用 到 的 资源 。 然 后 将 4 种 推荐 效果 
放 到 同一 个 指标 体系 中 ,进行 统一 评价 。 这 对 深入 研 
究 个 性 化 推荐 服务 具有 重要 的 理论 与 现实 意义 。 


2 相关 研究 


2.1 知识 找 回 
知识 找 回 这 一 概念 源 于 人 们 在 使 用 搜索 引擎 时 所 


为 。 大 多 数 有 经 验 的 用 户 都 难以 记 住 最 初 查询 时 发 现 
的 内 容 , 以 致 频繁 地 重新 查找 信息 1。 雅虎 的 一 项 基 
于 查询 日 志 的 研究 表明 ,40% 的 查询 试图 重新 查找 过 
去 已 经 检索 过 的 结果 ,而 在 对 用 户 行为 进行 监测 的 
实验 中 ,得 到 了 更 高 的 该 类 行为 发 生 比例 (44% 7, 
58% 7.819670) 。 尽 管 这 种 找 回 信息 的 场景 经 常 发 
生 , 但 总 体 成 功率 低 于 20% 。 因 此 ,如 何 提升 信息 找 
回 的 成 功率 成 为 了 此 类 研究 的 关键 问题 ” 。 研 究 者 
们 最 初 将 这 种 工作 场景 称 为 “信息 找 回 ”(information 
re -finding) ,试图 通过 引入 检索 系统 和 推荐 系统 来 解 
决 这 一 问题 。 在 具体 实践 中 ,基于 用 户 信息 '” 、 基 于 
内 容 ” 的 推荐 方式 都 在 信息 找 回 的 工作 场景 中 表现 
出 了 较 好 的 效果 。 而 随 着 个 人 知识 管理 系统 的 发 展 ， 
这 种 信息 找 回 的 行为 得 到 了 进一步 延伸 ,人 们 所 需 找 
回 的 信息 不 再 是 单纯 的 历史 检索 记录 ,而 是 过 去 经 过 
个 人 理解 加 工 ,对 现在 进行 着 的 创造 性 工作 有 着 积极 
作用 的 知识 ”1 ,信息 找 回 也 逐渐 演化 为 知识 找 回 。 
此 ,如 何 辅助 知识 工作 者 在 知识 找 回 场景 下 更 好 地 工 
作 , 这 对 现 有 的 推荐 系统 提出 了 更 高 的 要 求 。 
2.0 推荐 系统 

从 1992 年 Coldberg 推出 第 一 个 推荐 系统 Tapes- 
try ^" p 1994 年 P. Resnick 等 推出 第 一 个 自动 协同 
过 滤 系 统 GroupLens 以 来 ,推荐 系统 研究 已 经 经 历 
T 20 多 年 的 发 展 ,形成 了 一 个 较为 独立 的 研究 方向 ， 
它 与 计算 机 、 信 息 检 索 .行为 认 知 、 管 理科 学 等 领域 相 
关 。 虽 然 学 术 界 对 推荐 系统 一 直 没 有 一 个 公认 且 精 确 
的 定义 ,但 一 些 解释 也 获得 了 广泛 性 的 认同 :@ 推 荐 系 
统 的 本 质 是 信息 发 现 ?” ;@ 推 荐 系统 可 以 有 效 缓解 信 
息 过 载 问 题 ;@@ 推 荐 系统 挖掘“ 用 户 - DB" ze ag 
二 元 关系 并 基于 这 种 关系 建立 关联 算法 "等 。 

在 前 文 所 述 的 4 类 推荐 系统 中 ,第 一 类 推荐 系统 
在 理论 及 应 用 发 展 最 为 成 熟 , 众 多 学 者 为 解决 这 类 推 
荐 中 冷 启动 . 稀 正 性 、 异 构 性 及 可 扩展 性 问题 ”3 ,提出 
了 大 量 改 进 模型 及 其 应 用 ,并 在 商业 上 获得 了 大 量 成 
功 应 用 。 

第 二 类 推荐 系统 在 2000 年 以 后 逐渐 兴起 , 形 
成 更 为 精确 的 个 性 化 推荐 方案 。 此 类 系统 所 应 用 的 标 
注 机 制 很 多 ,包括 建立 项 目 本 体 、 标 注 用 户 属性 、 大 众 
(人 口 或 项 目 ) 分 类 等 ,是 对 二 元 关系 的 某 一 端 进行 描 
述 机 制 的 优化 。 

第 三 类 推荐 系统 的 理论 来 源 于 决策 支持 系统 。 
2002 年 后 ,机 器 学 习 中 关联 规则 .主题 提取 与 智能 决 


产生 的 “重新 访问 他 们 之 前 观看 过 的 内 容 ” 的 信息 行 


策 研 究 增多 ” ,基于 案例 推理 及 多 Agent 引擎 的 推理 
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类 推荐 系统 逐渐 发 展 成 熟 , 此 类 系统 以 专家 知识 库 为 


档 集 忆 = < dd > , 先 将 D(t) 分 类 并 预先 放置 到 


支撑 ,在 案例 推荐 .系统 集成 和 实时 推荐 等 方面 均 有 较 
好 效果 。 
第 四 类 推荐 系统 将 采集 到 的 情境 信息 融入 各 类 推 
荐 结果 ,从 而 对 系统 决策 结果 的 有 效 性 和 精确 性 产生 
有 益 影 响 。 现 阶段 ,对 情境 感知 推荐 的 研究 主要 集中 
在 情境 融合 上 ”“” 上 , 即 在 原 有 的 推荐 模型 上 ,融合 
某 种 情境 信息 进行 推荐 。 例 如 ,融合 了 地 理 位 置信 息 
的 电影 广告 .新 闻 推荐 等 。 
然而 无 论 是 非 情境 推荐 系统 ,还 是 具有 情境 感知 
能 力 的 推荐 系统 ,以 往 研究 大 都 将 研究 重点 放 在 推荐 
对 象 及 推荐 算法 机 制 上 ,例如 :应 用 具体 推荐 算法 的 商 
品 推 荐 文档 推荐 .音乐 推荐 等 ， 而 忽视 了 对 具体 场景 
的 关注 ,如 文档 推荐 中 的 知识 找 回 场景 。 而 在 个 性 化 


WAT 9 能 化 的 今天 ,根据 不 同 具体 场景 的 构成 要 
d.i 息 平台 (无 论 是 电 商 网 站 还 是 专家 系统 )、 


对 应 于 搜索 引擎 (或 数据 库 ) 的 目录 中 ,目录 名 用 搜索 
引擎 名 代替 ,作为 该 搜索 引擎 的 模拟 检索 结果 。 每 个 
文件 夹 包含 FF=6, 分 别 代表 360 1 1 .搜狗 百度、 
万 方 . 知 网 ) 个 子 文件 夹 ,每 个 子 文件 夹 中 存 有 该 搜索 
引擎 搜 到 的 文档 若干 。 让 位 (本 文 实验 =20) 用 户 
中 的 每 位 用 户 首先 选择 一 个 主题 ,然后 离线 使 用 对 应 
的 D(i) 来 写 一 篇 不 少 于 800 字 的 文章 (文章 体裁 自 
定 ) ,得 到 用 户 文章 集合 C, = «curre > 。 同 时 ,系统 
得 到 每 位 用 户 在 时 间 段 4 中 的 实际 行为 记录 Hu ,作为 
情境 推荐 系统 的 输入 。A 时 段 结束 后 ,要 求 每 位 被 试 
者 主观 选择 15 篇 重要 文档 ML ,作为 非 情境 推荐 系统 
的 输入 。 

在 相隔 4 周 后 的 B 时 段 ,召回 用 户 ,这 次 只 给 用 户 
u, 文档 集 Mi ,要 求 用 户 利用 Mi 做 出 一 份 5 页 的 规定 
格式 的 PPT, 作 为 成 果 集 合 C, = < cm…csm > ,并 得 到 


voee 类 型 (无 论 是 同 构 还 是 异 构 )、 用 户 群体 (无 论 是 
AERE AH) .需求 标准 (无 论 评价 指标 如 何 ) ,感知 
RELLY 从 是 移动 感知 还 是 上 下 文 感知 ) 设 计 推 荐 方 
iz) 都 要 按 体裁 衣 , 按 需 定量 , 才 能 获得 最 优 推荐 效 


会 为 了 评价 各 类 型 推 


荐 系统 在 知识 找 回 场景 下 的 表 


辽 综 合 分 析 各 类 推荐 模型 的 优势 与 缺点 ,本 文选 取 4 
种 哈代 表 性 的 推荐 系统 进行 模拟 ,将 模拟 得 到 的 推荐 
列 玫 与 用 户 需 求 进行 匹配 ,得 出 测度 数据 。 模 拟 知识 
援 加 场景 的 基本 思路 是 :给 用 户 分 配 一 项 具体 工作 ( 例 
如 :浏览 文档 撰写 论文 ) ,在 该 工作 中 用 户 需要 参考 大 
量 文档 才能 完成 。 在 一 个 时 间 周 期 后 ,给 用 户 分 配 另 
外 一 种 相似 的 工作 (例如 :制作 论文 PPT) ,该 工作 可 能 
要 用 到 前 一 次 工作 中 的 相关 文档 ,各 推荐 系统 需要 在 
第 二 次 工作 中 对 用 户 可 能 会 用 到 的 前 次 工作 中 参考 过 
的 文档 进行 推荐 。 然 后 , 比 对 第 二 次 工作 中 实际 用 到 
的 文档 序列 (或 用 户主 观 选择 的 重要 文档 序列 ) 和 第 
一 次 工作 后 经 过 特定 推荐 系统 处 理 得 出 的 推荐 结果 ， 
来 得 到 各 推荐 系统 的 测度 效果 。 本 文采 用 离线 模拟 在 
线 环境 的 方式 ,将 推荐 系统 的 推荐 过 程 从 模拟 实验 中 
独立 出 来 ,以 这 样 的 方式 模拟 推荐 系统 ,进而 评估 推荐 
效果 ,具有 规范 性 高 数据 易 得 .评估 精确 的 优点 。 

这 一 思路 的 实现 过 程 如 下 :实验 分 为 A.B 两 个 时 
段 。 具 体 为 :在 时 段 A 里 ,要 求 用 户 从 1 个 主题 (本 文 
实验 +=3) 中 选取 一 个 主题 。 用 户 被 提供 离线 检索 文 
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每 位 用 户 实际 行为 记录 如 。 同 时 要 求 每 位 用 户 在 了 B 
时 段 工作 完成 之 后 主观 选择 10 篇 重要 文档 Mu 并 对 其 
打分 (1 -5)。 实 验 中 ,A.\B 时 间 段 的 情境 信息 由 正 - 
History - View 工具 与 Key logger 工具 记录 ,实验 中 所 记 
录 的 情境 信息 在 本 文 的 4.4 小 节 中 详细 介绍 ,具体 实 
验 流程 如 图 1 所 示 : 
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R 

1 

' 

' 

1 
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户 工作 成 果 C, 
户 选 取 文档 MA i 
户 情境 记录 H, ' 
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' 
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1 

I 
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L 
‘URL 记录 | | 
访问 时 长 L3 
点 击 数 |! d 
m e 1 
I 1 
1 

L 

1 

E 


Ow 


B(30 分 钟 ) 


n. 使 用 文档 | 
3 创作 文档 PPT | 


图 1 面向 知识 找 回 的 推荐 系统 模拟 实验 时 序 
在 模拟 实验 结束 后 ,基于 M 与 下 文 各 非 情境 感 
知 模型 ,得 到 推荐 结果 集合 RR; 基 于 M, H, 与 下 文 情境 
感知 模型 ,得 到 推荐 结果 集合 RI ,分别 比 对 RR 和 R' 与 


(^ ima n 人 人 于 甘 日 工 
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Ms 的 精确 性 等 指标 。 


方法 
41 内 容 推荐 

基于 内 容 的 信息 推荐 (content - based recommenda- 
tion,CBR) 系 统 , 是 根据 用 户 对 于 资源 项 目 (item) 内容 
的 偏好 程度 ,为 用 户 推荐 与 其 偏好 相似 的 项 目 。 因 为 
在 知识 找 回 场景 中 ,推荐 的 对 象 是 过 去 浏览 过 的 内 容 ， 


故而 可 将 文档 内 容 看 做 项 目 ,分 词 去 重 后 的 文档 词 看 
做 项 目 元 素 ,用 户 浏览 文档 的 时 长 视 为 用 户 偏好 。 其 
基本 思想 是 :分 析 用 户 过 去 浏览 过 的 文档 内 容 , 形 成 用 
户 偏好 的 描述 ;对 当前 进行 的 工作 项 目 进行 前 置 过 滤 ， 
形成 项 目的 内 容 描述 ,然后 通过 比较 用 户 与 项 目 间 的 
相 了 私 性 来 实现 推荐 ” 。 面 向 知识 找 回 场景 的 CBR 系 
绕 央 有 两 个 模块 : 预 处 理 模块 与 推荐 模块 。 前 者 是 针 
对 项 目 内 容 进 行 处 理 , 经 过 分 词 .特征 抽取 (feature ex- 
tráclion) 索引、 降 维 等 过 程 ,建立 项 目 ; 的 数学 或 文档 
HERE content (2) 。 对 于 后 者 ,首先 利用 TF-IDF 算法 计 
钳 珊 目 元 素 对 于 项 目的 权重 ,然后 基于 用 户 历史 记录 ， 
创建 用 户 偏好 描述 ,最 后 利用 某 效 用 函数 :R(u,i) = 
sinu , content (i) ) 来 表示 项 目 内 容 对 于 用 户 v 的 重要 
程度 。 具 体 的 推荐 过 程 为 :首先 通过 正 HisotryView 和 
分 弹 工 具 获 取 用 户 浏览 历史 、 分 词 与 去 除 停 用 词 ” ， 
然 局 借助 经 典 的 TF - IDF 模型 (需要 最 大 限度 区 分 不 
同 灾 档 资源 ) ,并 根据 用 户 历史 记录 中 文档 浏览 时 长 ， 
构建 目标 用 户 w 对 特征 词 集合 7 8166s l 的 偏 
好 风量 wu = 1, worst nuo 由 于 任何 一 个 
文档 资源 都 可 用 一 个 特征 词 权 重组 成 的 向 量 来 表示 ， 
通过 特征 词 权重 可 以 最 大 限度 区 分 不 同文 档 资源 。 特 
征 词 t, 对 于 文档 的 重要 性 程度 的 归 一 化 计算 公式 为 ; 


TF(t dj) xlog( 7) 
; 


JẸUF a) tos A)T 
公式 (1) 
公式 1 中 ,7F(4,d,) 表 示 特征 词 n, TEC d, 中 的 
词 频 ,N 为 文档 总 数 ,n, 为 出 现 特征 词 c, 的 文档 资源 数 
量 ,T 为 特征 词 数量 。 然 后 ,根据 效用 函数 计算 余弦 相 
似 度 以 实现 用 户 浏览 文档 再 推荐 过 程 , 记 为 : 


W(t,,dj) = , (dje D) 


È Wj Wi 
VÈ SEW 
公式 2 中 ,wi 表示 用 户 偏好 向 量 权重 ,wi 表示 文 


公式 (2) 


sim(u; ,d;) = 


档 向 量 权 重 。 将 上 式 矩 阵 化 (用 户 - 文档 ) , 即 得 到 基 
于 用 户 浏 览 历 史 文档 的 推荐 文档 集合 , 设 定 阔 值 可 得 
推荐 排名 。 
4.2. 协同 过 滤 推 荐 

基于 协同 过 滤 的 信息 推荐 (collaborative filtering 
recommendation ,CFR) 方 式 与 CBR 的 不 同 之 处 在 于 :前 
者 是 基于 目标 用 户 自身 偏好 进行 推荐 目标 的 选择 ,而 
后 者 是 基于 D. Goldberg 等 1992 年 提出 的 这 样 一 种 假 
设 , 即 :“ 如 果 一 组 用 户 对 一 些 项 目的 偏好 相似 ,那么 他 
们 对 其 它 相 关 资 源 的 评分 也 会 相似 ”1 ,因此 ,协同 过 
滤 推 荐 的 实质 是 通过 将 偏好 向 量化 ,进而 通过 向 量 间 
相似 性 度量 方法 找到 目标 用 户 ( 或 目标 项 目 ) 的 最 近 
邻 集 (k — nearest neighbor, KNN) ,并 预测 用 户 排序 形成 
Top-N 推荐 文档 集 。 若 将 CFR 思想 引入 到 知识 找 回 的 
场景 中 ,可 以 看 做 一 个 小 型 团队 的 知识 共享 过 程 :通过 
发 现 团队 其 他 成 员工 作 时 的 偏好 情况 来 找 回 过 去 浏览 
过 且 现 在 需要 的 文档 。 但 是 ,由 于 知识 找 回 场景 的 特 
殊 性 ,进行 协同 过 滤 推 荐 时 会 存在 这 样 两 个 问题 :一 方 
面 , 若 基于 M, 集合 中 的 用 户 选择 与 否 建立 0/1 评分 矩 
阵 进行 协同 ,那么 会 存在 M, 与 用 户 实际 浏览 历史 H, 
没有 交集 ,或 推荐 集合 RR SSH, 与 M, 重合 率 不 
高 ,以 及 稀 玻 性 等 问题 。 另 一 方面 ,用 户 对 文档 的 偏好 
不 仅 取 决 于 选择 与 否 ,还 取决 于 实际 浏览 与 否 ,平均 停 
留 时 间 、 点 击 数 , 文 档 类 型 以 及 用 户 自 身 的 知识 层次 等 
因素 。 为 了 克服 这 两 个 问题 ,本 文采 用 基于 主观 选择 
与 客观 记录 相 结 合 的 方式 确定 用 户 偏好 ,构建 最 近邻 
居 KNN ,进而 产生 协同 推荐 集 的 方法 。 基 本 思想 是 : 
DE M, 中 融入 H, 中 包含 的 每 位 用 户 浏览 驻 留 时 间 
t, ,确立 时 间 阔 T( >30sec) ,将 M, 20/1 化 ,利用 扩展 
的 协同 推荐 方法 “ ,将 稀 玻 矩阵 逐渐 填充 ,使 得 稀 玻 
因子 >0.05。 得 到 所 有 在 同一 主题 下 的 用 户 i 对 所 选 
文档 序列 ML, 的 评分 矩阵 。 其 中 用 户 u 对 文档 i 的 评 
分 信息 由 公式 3 给 出 。 


t 、 
Re (ena) 公式 (3) 


对 文档 和 文档 7 都 做 过 评分 的 用 户 集合 用 U, R 
示 , 则 文档 相似 性 可 用 Person 相关 系数 度量 。 
X (Ru -R) Gt, - R) 
公式 (4) 
HEP R, A R, 分 别 表示 所 有 评分 用 户 对 文档 了 和 
文档 7 的 平均 分 。 即 : 


sim(i,j) I 
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公式 (5) 


文档 KNN 及 综合 过 滤 。 即 对 每 一 个 目标 文档 i, 
在 整个 文档 空间 I 中 搜索 文档 集合 Dm {iit 
LL, ERU e LIRE UA i WAE sim(i,i) 降 序 排 
列 。 然 后 将 之 过 滤 ,去 除 掉 其 它 用 户 所 评 文档 ,只 保留 
目标 用 户 w 所 评 文档 序列 / ,然后 根据 1 中 各 六 被 其 
他 用 户 所 评分 数 (可 有 下 列 启 发 性 公式 ) 来 预测 推荐 
文档 六 被 目标 用 户 w 所 采纳 的 程度 P, ro 


Esim(i,i") x (Ru Re) 
È simCii) | 
公式 (6) 
其 中 五 是 目标 文档 的 最 邻近 集合 ,R,* 是 为 其 他 
用 各 必 对 过 滤 后 的 文档 的 评分 ,R 是 为 上 对 文档 的 
平稳 评分 ,也 即 P,,。 需 要 说 明 的 是 ,从 了 0 1, 的 过 滤 
过 种 非常 重要 ,因为 这 确保 了 推荐 文档 集合 厂 存在 于 
用 所 评论 (或 浏览 ) 过 的 文档 集合 中 。 
AQ 网 络 推理 推荐 
下 M IH-3jr e] 2& ( bayesian network ) 经 过 近 30 年 的 发 
OÈ ee uc I Je — B Pg LO E DUE REESE" ,并 且 
在 信息 检索 与 推荐 .人工 智 能 、 专 家 系统 .模式 识别 等 
领 避 都 得 到 了 成 功 应 用 。 网 络 推理 推荐 (inference net- 
work recommendation , INR ) pinu ne 是 一 种 基于 贝 叶 斯 
网 络 的 不 确定 性 推理 算法 , 它 利 用 贝 叶 斯 网 络 的 结构 
及 和 条 件 概率 表 , 计 算 各 节点 的 取 值 概率 。 面 向 知识 
找 何 场景 的 推荐 系统 旨 在 通过 行为 记录 捕获 用 户 与 文 
档 阿 潜 在 的 依赖 关系 ,其 算法 是 :首先 构建 文档 的 索引 
jet Bust PI: E, ,给 定 文档 观察 事件 d, 发 生 的 先 验 
概率 和 大 出 现 事 件 的 条 件 概率 ,得 出 检索 词 出 现 事件 
的 后 验 概率 , 即 可 算出 用 户 查 询 被 满足 的 后 验 概率 。 
通过 文档 观察 事件 - 索引 词 出 现 事件 -用户 查询 被 满 
足 事件 这 一 推理 链 中 各 节点 的 条 件 独立 性 关系 来 构造 
一 个 贝 叶 斯 网 络 BN = «X,4,0» ,得 到 推荐 文档 集合 。 
其 中 查询 词 可 根据 用 户 记忆 时 所 处 状态 (在 本 实验 中 ， 
查询 词 为 用 户 被 分 配 的 主题 ) 得 出 。 eX, A» 表示 一 
个 有 向 无 循环 图 DAG ,X 表示 下 文 所 述 各 类 节点 ,4 表 
示 相 关节 点 潜在 概率 依赖 关系 ,9 表示 的 条 件 分 布 
概率 , 它 量化 了 节点 对 其 父 节点 的 依赖 程度 。 开 源 的 
信息 检索 工具 Indri 结合 了 网 络 推理 模型 和 语言 模型 
(language modeling) 的 优点 ,能 很 好 的 支持 结构 化 查询 
(structured query) ,从 而 对 推理 网 络 中 的 节点 进行 有 效 
Wifi ^ ,能 作为 基于 概率 理论 进行 文档 推荐 的 代表 性 
工具 , 它 所 采用 的 基于 TF-IDF 实现 文档 节点 d, 到 检索 


Ps, -LFR rs Pra 
: nci d 
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词 节 点 的 推理 。 图 2 是 Indri 的 推理 网 络 模型 。 


图 2 Indri 推理 网 络 模型 


图 2 中 每 一 个 节点 代表 一 个 随机 事件 ,每 个 非 根 
节点 表示 一 个 条 件 概率 表 , 该 表 用 来 描述 给 定 父 节点 


的 情况 下 该 节点 出 现 相关 联 的 结果 集 的 概率 ,系统 利 
用 给 定 的 先 验 概 率 、 条 件 概 率 和 节点 事件 计算 各 文档 
被 查询 的 概率 , 据 此 进行 排序 并 输出 。 其 中 文档 市 点 
D 是 一 个 二 进 制 特征 向 量 ;模型 节点 9 为 一 组 经 过 MM 
(a,B) 平 滑 过 的 多 元 伯 努 利 分 布 。 在 本 文 所 述 实 验 
中 ,对 预知 文档 的 表示 , 记 为 P(90 | D) ;特征 节点 + 表 
示 文 档 中 任何 易于 被 索引 的 特征 ,那么 有 : 
TF, „IDF 
TA POI T pp ERO 
公式 7 表示 假设 一 个 文档 一 旦 被 观察 到 ,那么 对 
于 每 一 个 特征 节点 出 现 的 概率 ,查询 节点 4 用 来 合并 
特征 节点 的 条 件 概 率 。 本 文 按照 mdri 的 工作 原理 进 
行 模拟 实现 ,通过 在 Indri 中 输入 每 人 的 M, 文档 序列 ， 
从 推理 网 络 中 得 到 其 对 应 的 Indri 值 7, 根据 每 人 的 了 
值 进 行 排序 ,然后 与 M, 进行 比 对 ,所 得 结果 形式 如 表 
1 所 示 : 


P(rID)= 


表 1 INR 推荐 结果 比 对 


* User ID My R I( Indri) Mg 
1 il 8 8 0. 325 196 252 9 
1 2 6 6 0. 041 227 371 8 
1 3 9 9 0. 019 126 99 16 
1 4 10 10 0. 018 069 445 17 
1 5 17 17 0. 011 333 865 14 
1 6 14 14 0. 011 095 502 6 
1 T 15 15 0. 008 886 901 3 
1 8 13 13 0. 007 074 106 0 
1 9 7 7 0. 006 728 622 1 
1 10 12 12 0. 005 564 768 2 


去 除 表 1 中 排序 靠 后 的 5 篇 文档 (MA 共有 15 篇 ， 
Ms 共有 10 篇 ) ,得 到 推荐 集 R 与 Mi, 的 重合 部 分 ,融入 
下 文 评价 标准 中 进行 测量 。 
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4.4 ”情境 感知 推荐 

基 RE 境 感 知 的 推荐 ( context awareness system, 
CAS) 不 同 于 以 上 CBR 等 , 它 可 以 根据 情境 信息 HA 
断 用 户 当前 情境 ,并 将 历史 信息 五 ,应 用 于 推荐 过 程 之 
中 ,使 推荐 结果 更 符合 用 户 当 前 所 处 情境 预期 。 根 据 
知识 找 回 场景 的 特点 ,本 文 主要 根据 用 户 浏览 记录 Ha 
和 了 豆 ,中 所 包含 的 情境 信息 进行 推理 。 同 时 ,鉴于 知识 
间 的 关联 性 ,本 文选 取 激 活 扩 展 ( spreading activation 
technique, SA) 模型 来 进行 情境 信息 推导 '”。SA 模 
型 首先 应 用 于 信息 检索 领域 ,具有 语词 扩展 功能 1。 
例如 ,两 个 语词 在 SA 方法 中 存在 共 现 或 者 语义 关联 ， 
如 果 其 中 一 个 语词 是 某 篇 文档 的 标 引 词 ,那么 另 一 个 
语词 也 可 标 引 该 文档 。 从 用 户 角 度 来 看 , 它 在 一 定 程 
魔 丘 对 用 户 记忆 进行 了 扩展 和 延续 ,SA 模型 可 构建 清 
晰 的 知识 信息 网 络 ,可 抽取 与 用 户 当前 情境 信息 相关 
的 情境 信息 ,犹如 在 知识 工作 者 的 大 脑 中 增加 了 记忆 
瑟 , 减 径 信息 过 载 的 压力 ,提高 工作 效率 。 本 文 
所 做 实验 中 ,采用 文档 名 中 的 关键 词 做 文档 标 引 。 
八 -首先 ,基于 SA 模型 构建 基于 文档 推荐 的 层次 模 
型 如 图 3。 该 模型 主要 包括 事件 层 、 情 境 层 和 文档 


司 不 同 层次 在 推荐 过 程 中 具有 不 同 的 功能 。 
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图 3 情境 感知 推荐 中 的 层次 模型 


其 次 ,根据 以 上 3 层 结构 建立 激活 扩展 模型 整体 
网 络 。 事 件 层 包含 离散 的 用 户 事件 信息 ( 见 表 2) , 例 
如 浏览 .点击 等 事件 等 。 在 本 文中 ,IE - History - View 
记录 包括 鼠标 活动 .浏览 框 标题 .URL 等 实时 数据 。 将 
一 次 打开 事件 列 为 一 个 Event Block ,以 文档 名 标 引 其 
主题 。 这 样 ,事件 层 里 就 包含 了 若干 标 引 过 的 事件 (e- 
vent) 序 列 。 事 件 层 为 下 一 层 的 情境 信息 抽取 提供 了 


ll 
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数据 保障 ,是 整个 情境 感知 推荐 模型 的 输入 。 
X2 事件 层 内 容 举 例 


事件 数据 项 样本 值 
用 户 Huanlei ( 某 用 户 ) 
Event_ID 2344 
开始 时 间 201734355T2315454 
经 过 时 间 48s 
访问 次 数 4 
URL DELL file ;///C ;/Users/ DELL/Desktop/ X 35/ X 1 XC 


档 / 实 验 搜索 库 1 - 萧红 /百度 /百度 _ 萧 红 简 介 / 百 度 _ 
萧红 的 资料 与 作品 介绍 . txt 


标 引 (Topic) 萧红 简介 


位 置 / 域 /点 击 ^ NULL 


然后 ,根据 事件 层 的 数据 结构 ,将 情境 信息 进行 分 
类 ,并 在 情境 层 构建 情境 信息 网 络 。 因 此 ,情境 层 主要 
包含 各 类 型 情境 信息 的 节点 ,以 及 一 个 通过 SA 模型 构 
建 起 来 的 情境 信息 网 络 。 本 文 将 情境 信息 分 为 4 种 基 
本 类 型 :地 点 时间、 客体 (Objects ) 以 及 活动 ( Activi- 
ty) P9 ,其 中 客体 是 指 推荐 项 目 ;活动 视 具体 情况 而 
定 ,本 文 的 活动 主要 是 用 户 ( 知 识 工作 者 ) 对 知识 性 文 
档 的 查找 与 浏览 。 据 此 ,笔者 将 知识 找 回 场景 下 的 情 
境 信息 包含 时 间 (Time) ,话题 (Topic) 和 实体 ( Entity ) 。 
其 中 ,话题 用 来 判断 知识 工作 者 当前 工作 主题 范围 , 实 
体 指 当前 打开 文档 。 

最 后 ,通过 情境 信息 网 络 中 的 关联 信息 ,对 用 户 当 
前 情境 进行 判断 ,根据 文档 的 标 引 (也 即 上 文 所 指 话 
题 ) 在 文档 层 进行 文档 之 间 的 关联 与 匹配 。 在 文档 层 ， 
运用 SA 方法 ,构建 候选 文档 间 的 关联 网 络 ,并 根据 文 
档 间 关 联 强度 对 候选 文档 进行 排序 以 便 推荐 。 因 此 ， 
融入 SA 方法 的 情境 推荐 具体 过 程 为 :一 方面 ,对 事件 
层 的 情境 数据 进行 提取 ,提供 给 情境 信息 层 ,通过 SA 
方法 构建 情境 信息 关联 网 络 ; 另 一 方面 ,根据 当前 的 情 
境 描 述 信息 ,选择 被 标 引文 档 进行 匹配 激活 ,然后 利用 
匹配 算法 553 (此 处 用 到 了 知识 词 库 WorldNet, 查询 标 
引 之 间 的 关联 度 ) ,对 激活 文档 的 相关 文档 进行 激活 ， 
再 对 激活 过 后 的 相关 文档 进行 排序 推荐 。 例 如 ,通过 
情境 监测 发 现 知识 工作 者 正 处 于 “癌症 "话题 ,系统 就 
会 根据 情境 层 的 情境 信息 网 络 , 通 SA 方法 关联 到 语义 
相关 的 “肿瘤 "话题 ,因此 “肿瘤 "话题 相关 情境 信息 被 
激活 ,文档 层 也 将 推出 扩展 文档 。 由 此 可 见 ,SA 方法 
可 以 很 好 地 解决 了 文档 推荐 中 所 面临 的 情境 信息 稀 政 
性 问题 。 在 本 文中 所 做 实验 中 ,用 户 的 每 一 主题 的 文 
档 的 存储 量 和 记录 数 相对 有 限 ,这 将 使 得 文档 层 可 能 
面临 由 于 过 度 扩 展 所 带 来 的 推荐 结果 准确 性 较 低 , 即 
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不 相关 文档 被 推荐 出 。 因 此 ,利用 词 频 TF - IDF 思想 
对 SA 模型 的 情境 信息 与 文档 关联 强度 加 以 限制 。 在 
TF - IDF 中 , 字 词 的 重要 性 与 它 在 文档 中 出 现 的 次 数 
成 正比 ,但 与 它 在 语料库 中 出 现 的 频率 成 反比 。 同 理 ， 


G 


时 与 总 体 情 境 信息 成 反比 。 也 就 是 说 ,情境 信息 出 现 
在 越 多 的 不 同文 档 中 ,其 相对 文档 的 重要 性 越 低 ;情境 
言 县 在 同一 文档 中 出 现 的 次 数 越 多 ,其 相对 该 文本 越 
重要 。 具 体 构建 了 不 同 层 级 间 及 其 内 部 节点 的 联结 权 


本 文中 规定 ,推荐 文档 的 重要 性 与 情境 信息 成 正比 , 同 


重 计算 方式 如 表 3 所 示 : 


表 3 情境 信息 中 不 同 层级 间 及 其 内 部 节点 联结 权重 计算 方式 


情境 信息 项 权重 计算 方式 说 明 
Data/ Time 1 时 间 截 是 用 户 浏览 的 唯一 标识 ,同一 时 刻 只 能 认真 浏览 一 篇 文档 
Entity C entity , e docment ) /entities 某 一 客体 在 文档 之 中 出 现 的 概率 
Localtion 1 个 文档 的 存储 路 径 一 般 是 唯一 的 
Topic topic // topic, n 某 一 话题 的 扩展 权重 取决 于 该 话题 在 文档 中 出 现 的 概率 
ClickCount ClickCount,/ Max( ClickCount, ) 该 文档 的 点 击 次 数 与 最 高 点 击 次 数 的 比值 


鉴于 本 文中 文档 的 匹配 主要 取决 于 话题 的 匹配 ， 
话题 影响 着 推荐 文档 的 主题 范围 ,并 且 在 时 间 和 位 置 
情 开 的 辅助 下 可 给 知识 工作 者 推荐 出 符合 其 任务 主题 
的 近期 浏览 的 相关 文档 资料 。 情 境 推 荐 对 于 推荐 结 
盯 守 要 关注 推荐 文档 的 情境 相关 ,以 预测 知识 工作 者 
BE K 的 文档 偏好 。 通 过 Latent Dirichlet Allocation 
(4) 方法 对 文档 内 容 主题 进行 话题 抽取 ,并 同 其 他 
文档 浏览 记录 信息 结合 标记 文档 特征 。 


CY) 
5 ”评价 体系 


CN 和 多 学 者 针对 各 种 推荐 方法 的 适用 场景 及 推荐 需 
求 设置 了 同 种 类 的 评估 标准 。 但 大 多 数学 者 只 局 


值 。 具 体 为 ,对 每 位 用 户 i, 其 在 B 时 段 选 择 的 文档 集 
Mr 与 推荐 集 尺 个 数 的 比值 , 记 为 
Precision = ( SRM, )/k 
其 中 天 为 用 户 的 个 数 。 
5.2 情境 相关 性 评价 标准 
情境 相关 性 评价 标准 用 来 评估 推荐 集 R 文档 与 用 
户 当 前 所 处 情境 的 匹配 程度 。 情 境 相 关 性 评价 标准 可 
以 至 少 反 映 推荐 系统 3 个 方面 的 效率 : 中 可 以 体现 推 
荐 结果 是 否 能 连续 匹配 所 有 情境 下 的 信息 需求 ;将 用 
户 所 做 工作 看 做 是 一 个 顺序 发 生 的 情境 序列 S, <s, 
5,2 ,用 户 在 日 时 刻 所 处 的 情境 所 需 推 荐 结果 并 不 
一 定 满足 用 户 在 忆 时 刻 所 处 情境 的 需求 。 例 如 ,一 个 


公式 (8 ) 


限 潜 推荐 的 精确 性 一 个 方面 ,而 对 多 样 性 、 预 测 性 、 实 
时 丢 等 指标 论述 较 少 。 根 据 用 户 在 知识 找 回 场景 下 的 
具 傈 推荐 需求 ,结合 F. Ricci" 和 M. Sappelli ? 的 4 组 
推荐 系统 的 标准 :了 精确 性 (推荐 集 与 用 户主 观 需求 的 
交集 ) ; @@ 情 境 相关 性 (推荐 集 与 用 户 当前 所 处 情境 匹 
配 程度 ,情境 信息 由 用 户 浏览 的 文档 名 时间 间隔 等 描 
XE) ;@ 预 测 性 (推荐 集 与 用 户 下 一 时 段 将 要 打开 的 文 
档 集 匹配 程度 ) ;@ 多 样 性 (推荐 集 R 涵盖 相同 主题 下 
不 同 子 目录 的 程度 ) ,在 每 种 标准 之 下 涉及 到 的 多 种 具 
体 评价 指标 中 (如 MAE fib P/R 值 ,P@N 值 .F 值 、 
ROUGE - NP" 45) ,每 种 评价 指标 里 选取 一 至 两 种 评 
价 参 数 进行 评价 。 

5.1 ”精确 性 评价 标准 

推荐 的 精确 性 用 来 评估 推荐 集合 R 与 用 户主 观 推 
荐 需求 M,, 的 重合 程度 , 它 类 似 于 信息 检索 系统 中 的 
查 准 率 。 推 荐 系统 精确 性 的 提高 可 以 减少 不 相关 文档 
的 干扰 ,帮助 知识 工作 者 更 好 地 聚焦 精力 处 理 手中 事 
务 。 一 般 情况 下 ,用 户 只 关心 排名 靠 前 的 推荐 文档 。 
所 以 本 文 仅 针对 排名 前 10 的 推荐 文档 ,计算 查 准 率 P 


hl 
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] 户 写 一 篇 软件 工程 文档 ,在 开始 写 的 时 候 , 用 户 关 心 
的 是 系统 需求 ,而 接 下 来 的 某 一 端 时 间 ,用 户 可 能 更 关 
心 界面 设计 。 外 可 以 体现 推荐 系统 在 多 大 程度 上 分 散 
用 户 注意 力 的 能 力 ”。@ 可 以 衡量 推荐 系统 理解 用 
户 所 处 情境 的 能 力 。 以 上 3 个 方面 的 效率 的 提升 可 以 
更 好 地 提醒 用 户 哪些 文档 是 其 过 去 浏览 过 且 与 现在 进 
行 的 知识 工作 情境 相关 的 。 

在 本 文 所 做 实验 中 ,采用 情境 计算 中 3 个 经 典 变 
量 组 成 的 三 元 组 : Context = < 时段 time, 目录 index, 
激活 文档 ( 即 当前 打开 文档 ) document > ,作为 描述 用 
户 当 前 情境 的 参数 , 且 均 可 以 从 B 时 段 的 浏览 记录 H 
中 得 到 。 那 么 , 接 下 来 的 任务 就 变 为 :如 何 衡量 推荐 集 
R Ej B 时 段 用 户 经 历 的 情境 相关 文档 集 Context. 的 匹 
配 程度 ”具体 公式 为 : 
S (Contexm. lime) * Num, ( Context. index) — , 


Context = = * > sim 
izl 


e 


i 
E Num, ( Context ) 

(documents ,R; ) 公式 (9) 
公式 9 中 ,Num,( Context. time) 示 给 每 个 用 户 的 推 
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荐 集 RCR = 10 ) 与 用 户 在 时 间 间 隔 ( 取 3min) 内 打开 的 
文档 为 同一 文档 的 数量 ; Num, ( Context. index) 表示 R 
与 该 用 户 打开 所 有 文档 属于 同一 子 目录 的 数量 ;sim 
( documents , R,) 表示 用 户 打开 文档 主题 (文件 名 ) 与 RR 
的 相似 度 , 可 以 通过 余 强 公式 求 得 ;Num,( Context ) R 
示 用 户 经 历 过 的 情境 个 数 ,在 这 里 ,用 打开 文档 数 代 
蔡 。 接 下 来 ,需要 设立 Comiew 的 阔 值 ,表示 Context < 
cj…cj> 达 到 多 少 百分比 即 判定 推荐 文档 与 用 户 情 
境 相关 。 经 试验 , 阔 值 取 0.04 时 ,每 组 主题 中 均 存在 
匹配 成 功 的 文档 。 接 下 来 , 仍 用 P N 指标 衡量 情境 
相关 质量 :如 果 推 荐 文档 列表 有 尽 <m…ro > 与 了 时段 
用 户 经 历 情境 相关 文档 集 Context < cj…c, > , 则 匹配 
成 功 。 
5 本 预测 性 评价 标准 

二 如 前 文 所 述 ,推荐 的 目的 是 提醒 用 户 “将 要 ”使 用 
休 济 ,而 不 是 用 户 “ 喜 欢 过 ”什么 。 与 “喜欢 过 ”的 东西 
非 篆 相关 的 内 容 , 有 可 能 帮助 用 户 工作 ,但 是 并 不 一 定 
适合 用 户 “ 下 一 步 " 的 预期 。 因 此 ,预测 性 的 评价 指标 
同 笑 从 另 一 个 角度 评价 推荐 系统 能 力 :推荐 结果 是 否 
能 鹃 有 效 预测 用 户 下 一 步 将 要 打开 的 文档 ,这 无 疑 将 
姓 淖 省 用 户 选取 其 真实 所 需 文档 的 时 间 。 采 用 记录 事 
伟 卫 的 方法 来 获取 用 户 “ 下 一 步 "需要 的 文档 ,具体 
HA B 时 段 分 为 3 个 时 间 间 隔 (10min * 3) ,用 每 一 个 


涵盖 相同 主题 下 不 同 子 目录 的 程度 。 将 推荐 集合 中 
来 自 于 同一 最 小 子 目 录 ( 如 表 3 P URL 所 示 , 在 “ 实 
验 文档 " 目录 下 又 有 三 层 子 目录 ,分别 为 一 ` 二 、 三 层 
子 目录 ) 的 文档 归 为 一 组 ,每 组 的 文档 数 如 大 于 等 于 
2, 则 除 以 该 组 文档 数 。 最 后 ,再 除 以 总 用 户 数 。 这 
样 来 计算 推荐 文档 集 的 多 样 性 。 


6 实验 结果 与 分 析 


本 文 根 据 实验 需要 ,组 织 了 20 人 的 志愿 者 团队 。 
因 时 间 有 限 ,本 次 实验 对 于 每 个 用 户 只 启用 一 个 主题 
来 进行 评测 ,最 终 进行 汇总 分 析 。 利 用 课余 时 间 开 展 
模拟 实验 一 ,四 周 之 后 开展 模拟 实验 二 ,记录 采集 到 的 
有 户 行 为 数据 、 用 户 每 次 实验 所 选 文 档 ,然后 利用 上 述 
4 种 标准 对 上 述 4 种 典型 推荐 系统 进行 进行 效果 评 
估 。 结 果 如 下 : 
6.1 精确 性 

表 4 显示 了 各 种 推荐 系统 在 精确 性 ( 查 准 率 ) 方 面 
的 情况 ,图 中 Pe 1 表示 推荐 列表 与 用 户主 观 选择 在 第 
一 项 上 的 重合 率 ,P@ 10 表示 推荐 列表 的 前 10 项 与 主 
观 选择 的 重合 率 。 在 推荐 精度 上 ,CFR 与 CAS 在 随机 
性 方面 明显 低 于 CBR 与 INR ,因为 CAS 方法 试图 在 推 
荐 文档 的 同时 ,对 情境 进行 分 类 ,所 有 推荐 集 R 与 情境 
R Context 存在 一 定 的 关系 ,但 对 查 准 率 并 没有 太 大 页 


Cm 


推荐 模型 的 推荐 集合 R 与 后 两 个 时 段 打开 文档 进行 比 
jg 通过 计算 R 中 包含 用 户 下 一 步 打开 文档 数量 以 衡 
于 和 夏 荐 系统 预测 性 指标 Prediction; 


k : 
Æ XNu(RT) + XNun( RT.) 
JPerdiction = = IN 


公式 (10) 
其 中 ,Num( RT,) 表 示 对 于 用 户 i 来 说 ,推荐 集 R 
与 全 时 间 间 隔 内 用 户 打 开 的 文档 重合 的 数量 。 同 样 
本 文采 用 了 Prediction@ 1 和 Prediction@ 10 的 方法 计 
算 文档 的 比率 值 。 
5.4 多 样 性 评价 标准 
对 于 用 户 来 说 ,完成 一 项 任务 将 涉及 到 各 个 领域 
的 知识 ,因此 ,推荐 文档 集合 的 多 样 性 对 于 满足 用 户 对 
知识 广度 的 需求 非常 重要 ,可 以 充分 激发 知识 创造 力 。 


献 ; 而 P@1 Ej P€ 10 分布 最 为 不 均匀 的 是 CBR 和 
CFR ;虽然 基于 内 容 的 推荐 方式 和 协同 推荐 在 排序 靠 
前 部 分 取得 较 好 质量 ,但 是 衰减 非常 快 。 

表 4 知识 找 回 场景 下 的 推荐 系统 精确 性 


方法 CBR CFR INR CAS 
Precition@ 1 0.65 0.50 0.55 0.50 
Precition@ 10 0.58 0.45 0.60 0.44 


6.2 ”情境 相关 性 

表 5 显示 了 4 种 推荐 系统 在 情境 相关 性 方面 的 情 
况 , 表 中 Context 1 表示 推荐 列表 与 情境 相关 文档 集 
Context 中 ,第 一 项 的 公式 计算 出 的 匹配 度 , Context? 10 
表示 推荐 列表 的 前 10 项 与 情境 相关 文档 集 Context 的 
公式 计算 出 的 匹配 度 。 如 表 5 所 示 ,在 "用户 所 得 到 的 
推荐 集合 是 否 符合 当前 情境 ”指标 上 看 ,CAS 得 分 最 


但 是 多 样 性 评价 标准 与 其 它 评价 标准 存在 一 定 的 矛盾 
性 ,因为 推荐 集 的 多 样 性 的 提高 ,在 一 定 程度 上 会 降低 
相关 文档 的 数量 。 但 是 只 要 文档 集合 充裕 ,在 不 降低 
相关 性 的 条 件 下 ,保持 推荐 集 的 多 样 性 是 可 行 的 。 
在 本 文 所 做 实验 中 ,推荐 集合 的 多 样 性 是 指 推荐 集 尺 


高 ,这 证 明了 CAS 在 “知识 找 回 "场景 中 具有 比 CFR 和 
INR 等 传统 模型 更 高 的 情境 感知 能 力 。 男 外 ,在 实验 
中 发 现 , 激 活 扩 散 模型 中 情境 项 的 计算 方式 与 Context 
@N 非常 相关 。 例 如 ,去 掉 “ 文 档 点 击 次 数 ” 的 情境 信 
息 , 能 够 非常 大 程度 影响 情境 相关 文档 集 Context 的 抽 
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取 , 继 而 影响 情境 相关 性 。 
表 5 知识 找 回 场景 下 的 推荐 系统 情境 相关 性 


方法 CBR CFR INR CAS 
Context 1 0. 690 0. 369 0.578 0.728 
Context 10 0.567 0.397 0.401 0. 583 


6.3 预测 性 

表 6 显示 ,CAS 在 预测 用 户 下 一 时 段 需求 方面 具 
有 更 好 的 能 力 。CBR 在 推荐 清单 中 正确 预测 下 一 份 文 
件 的 能 力 仅 维 持 在 3 多 左 右 , 而 CER 对 预测 性 的 波动 
较 大 ,但 均 没有 CBR 有 效 ;INR 的 预测 能 力 最 弱 ( < 
2% ) ,而 CAS 的 预测 能 力 在 后 半 段 时 间 内 能 达到 接近 
4% 。 需 要 说 明 的 是 ,由 于 下 一 时 段 的 推荐 集 不 能 包含 
当前 时 段 的 打开 文档 ,用 户 往往 在 打开 文档 之 后 没有 
AATE ,而 是 在 下 一 时 段 对 原来 的 文档 来 回 切换 ,因此 

CN 表 6 知识 找 回 场景 下 的 推荐 系统 预测 性 


方法 CBR CFR INR CAS 
(CC Prediction@ 1 0.027 0. 009 0.012 0.021 
^ Prediction? 10 0. 033 0. 033 0.015 0.037 


sP 多 样 性 

QN 表 7 显示 ,推荐 系统 中 INR 和 CAS 具有 较 高 的 多 
TR. xtUiH] CAS 在 适应 对 情境 变化 方面 差异 较 其 
他 推荐 系统 大 ,其 次 是 CBR 和 CFR, 

um R7 知识 找 回 场景 下 的 推荐 系统 多 样 性 


© 方法 CBR CFR INR CAS 
C Diversity 1.80 1.60 1.45 2.00 
LE 


6 号 ”推荐 系统 比较 分 析 

分 别 对 以 上 4 种 推荐 系统 的 4 种 评估 标准 在 推荐 
结果 匹配 度 P@1 至 P@ 10 上 进行 了 可 视 化 ,结果 见 图 
4 xs 图 Tg 


精确 性 
070 
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0.60 
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045 
040 
0.35 


0.30 


指标 值 


PG| PG2 P@3 PG4 P@5 P@6 P@7 PG@8 P@9 P@10 
精确 性 匹配 度 指 标 


——CBR 一 国 一 CFR ——INR 一 全 CAS 


4 4 种 推荐 系统 精确 性 比较 
比较 结果 显示 ,在 推荐 系统 的 精确 性 上 ,情境 感知 
类 推荐 系统 较 其 他 推荐 系统 有 较 大 波动 ,一 定 程度 上 
说 明了 人 情境 相关 与 文档 相关 的 分 离 性 , 即 基 于 文档 相 
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情境 相关 性 
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图 6 4 种 推荐 系统 预测 性 比较 
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图 7 4 种 推荐 系统 推荐 内 容 多 样 性 比较 


关 的 CBR 推荐 结果 更 多 的 是 取决 于 文档 内 容 , 而 CAS 
更 多 取决 于 用 户 当 前 所 处 情境 。 因 此 在 推荐 列表 的 选 
TE E ,推荐 个 数 的 增多 意味 着 涵盖 的 情境 增多 。 如 果 
系统 的 目标 是 推荐 可 能 包含 用 户 当 前 情境 下 的 相关 文 
档 , 则 CBR 与 CAS 都 是 最 佳 选 择 。 从 图 5 可 知 ,CAS 
虽然 具有 更 高 的 情境 适应 能 力 , 但 这 并 不 是 说 CAS 用 
户 一 定 就 会 使 用 这 些 情境 相关 的 文档 。 事 实 上 , 随 着 
CAS 推荐 列表 的 增 大 ,该 列表 对 所 有 情境 的 满足 程度 
将 会 衰减 ,而 CBR 与 INF 则 没有 这 个 问题 。 男 外 , 需 
要 指出 的 是 ,用 户 的 一 项 不 容易 被 测量 的 需求 是 防止 
推荐 系统 对 用 户 的 干扰 。 在 这 方面 具有 情境 感知 功能 
的 CAS 与 具有 情境 预 过 滤 功 能 的 CBR 都 能 取得 较 好 
的 结果 。 如 果 系 统 目 标 是 预测 用 户 即 将 打开 哪些 文 
档 , 那 么 CAS 是 最 佳 选择 。 因 为 基于 CAS 的 推荐 系统 
中 ,推荐 列表 与 该 情境 下 被 激活 扩散 的 相关 文档 之 间 
有 直接 关联 ,并 且 这 种 关联 不 随时 间 变 动 而 改变 。 
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文 所 做 实验 中 ,对 于 多 样 性 检测 比较 简单 ,主要 是 因为 
实验 中 推荐 列表 最 大 值 为 10, 对 于 检测 推荐 结果 的 多 
样 性 方面 说 明 性 较 弱 。 由 图 7 可 知 ,CAS 同样 在 多 样 
性 方面 表现 也 较 好 ,但 是 4 种 推荐 系统 在 多 样 性 方面 
表现 差异 不 大 。 

上 文 提 出 的 4 种 评估 标准 涵盖 了 知识 找 回 场景 下 
用 户 对 推荐 系统 需求 的 几 个 方面 。 其 中 ,一 些 评估 标 
准 可 能 与 用 户 的 显 性 需求 相关 ,例如 精确 度 ;一 些 评估 
标准 可 能 与 用 户 的 隐 人 性 需求 相关 ,例如 多 样 性 。 因 为 
面向 "知识 找 回 ”场景 的 推荐 系统 的 应 用 主要 体现 在 
个 人 或 团队 的 知识 管理 系统 上 ,以 本 文 的 实验 结果 可 
以 说 明 这 些 系统 推广 的 有 效 性 ,可 以 为 评 佑 各 类 推荐 
系统 是 否 在 总 体 上 适合 大 多 数 知识 工作 者 的 整体 需求 


系统 在 情境 相关 性 与 可 预测 性 方面 的 表现 较 其 他 推荐 
系统 更 加 突出 。 因 而 ,在 个 人 知识 工作 者 或 者 小 型 团 
队 的 知识 管理 中 可 以 根据 实际 工作 需求 和 模型 特点 进 
行 应 用 。 

从 模拟 实验 结果 中 也 可 以 看 出 ,构建 在 知识 找 回 
场景 下 的 推荐 模型 是 复杂 的 , 它 既 要 考虑 到 用 户 或 用 
户 群体 的 历史 兴趣 偏好 ,又 要 考虑 到 用 户 当 前 所 处 情 
境 。 当 在 大 规模 用 户 中 进行 推广 时 , 既 要 考虑 本 文 实 
验 中 所 得 出 的 一 般 性 结果 ,又 要 结合 用 户 在 自身 情境 
中 的 任务 情况 提供 个 性 化 的 定制 渠道 。 同 时 ,笔者 也 
认为 ,基于 情境 感知 的 推荐 是 一 种 具有 较 好 发 展 前 景 
的 推荐 系统 ,虽然 其 推荐 列表 可 能 在 精度 与 灵活 性 方 
面 有 待 提高 ,但 是 在 系统 建设 时 可 以 作为 默认 的 推荐 


提供 有 效 建议 ,在 具体 实施 建设 系统 时 倾向 于 选择 在 
所 有 评估 标准 上 得 分 较 高 的 系统 。 但 这 并 不 是 说 在 任 
全 稍 况 下 本 实验 结论 中 评分 较 高 的 推荐 系统 都 会 表现 


方式 在 其 之 上 运用 其 他 类 型 的 推荐 模型 进行 拓展 。 
未 来 工作 将 考虑 如 何 把 非 情境 推荐 的 模型 与 情境 
推荐 的 模型 加 以 融合 ,充分 发 挥 各 自 优 势 , 并 将 隐语 义 


最 年。 一 个 实际 例子 是 ,如 果 用 户 所 处 情境 相对 集中 
( 例 则 用 户 一 天 都 在 处 理 健康 类 文档 ) ,那么 选用 CAS 
本 以 防止 干扰 ( disturbance) 的 发 生 。 但 如 果 情 境 信息 
轻 浊 分散 ( 例如 用 户 在 多 个 情境 间 来 回 切换 ) ,那么 
AS 的 抗 干扰 性 将 会 明显 减弱 ,而 分 散 用 户 的 注意 力 。 
因此 ,可 以 得 出 结论 ,鉴于 知识 找 回 场景 中 多 样 化 
户 需求 ,首选 的 推荐 方案 并 非 完 全 取决 于 推荐 系 
的 评测 结果 ,更 应 该 取决 于 用 户 在 知识 找 


的 


估 和 标准 上 表现 如 何 ,每 种 推荐 系统 都 有 其 优 缺 点 。 
CBE 的 优点 在 于 方案 简单 .可 靠 ,但 它 容易 遇 到 引入 一 
个 疡 的 情境 所 发 生 的 冷 启动 问题 。INR 的 优点 是 进行 
情境 的 确定 不 依赖 外 部 信息 ,进而 用 情境 词 进 行 查询 ， 
但 缺点 是 有 时 查询 失败 而 不 能 提供 任何 推荐 。 在 本 实 
验 中 ,有 14% 的 情境 词 有 这 种 情况 。 另 外 ,在 许多 复 
杂 场 景 中 ,首选 的 推荐 方案 即使 在 一 天 的 工作 中 也 会 
发 生变 化 。 故 而 ,选择 合适 的 推荐 方案 ,重要 的 是 在 任 
务 驱动 下 ,确定 适合 的 推荐 方案 并 持续 使 用 ,充分 消除 
冷 启动 问题 。 


Te 


本 文 梳理 了 几 种 典型 推荐 系统 的 发 展 脉络 。 在 此 
基础 上 ,设计 并 执行 实验 流程 ,模拟 实现 了 4 种 有 代表 
性 推荐 系统 的 初级 版 本 。 随 后 根据 知识 找 回 场景 下 的 
用 户 需 求 , 设 置 了 4 种 评估 标准 ,用 来 评估 知识 找 回 场 
景 下 各 种 推荐 系统 的 效率 。 结 果 显 示 , 各 类 推荐 系统 
在 “知识 找 回 "场景 中 各 有 优势 ,基于 情境 感知 的 推荐 


模型 深度 学 习 模 型 等 新 兴 推 荐 模型 纳入 研究 之 中 。 
后 续 将 比较 各 类 模型 在 有 无 情境 信息 时 的 表现 差异 ， 
通过 引用 激活 扩散 模型 来 挖掘 情境 相关 文档 ,构建 情 
境 描述 机 制 ,更 好 地 探究 各 类 模型 在 知识 找 回 场景 下 
的 适用 性 。 
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xAbstract : [ Purpose/significance | Information overload has been always considered as the major barrier confronted 
byf 人 workers in the process of gathering, processing and producing information. One of its consequences is that it 
is Fard to recall documents that ever used, while the recommendation system could reduce such difficulty. Comparing the 
recothmendation efficiencies through representative recommendation mechanisms may assisst knowledge workers in accom- 
plishing the task of knowledge re -finding. | Method/process | Based on associated recommendation system theoies, this 
paper presents a simulation on 4 different recommendation procedures in an unified experimental scene ( knowledge re find- 
ing) , the precedures includes CBR, CFR, INR and CAS. 4 evaluation criteria ( precision, context relevance, action -pre- 
diction, diversity) has been used to evaluate and compare the efficiency of corresponding recommendation systems. [ Re- 
sult/conclusion | The results show that each recommendation procedure has its own advantages in knowledge re -finding 
and CAS has advantages in both context-relevance and action-prediction. 
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